Command Palette

Search for a command to run...

2 天前

嵌套学习:深度学习架构的幻觉

Ali Behrouz Meisam Razaviyayn Peiling Zhong Vahab Mirrokni

嵌套学习:深度学习架构的幻觉

摘要

在过去的几十年中,开发更强大的神经网络架构,并同时设计高效的优化算法以有效训练这些模型,一直是提升机器学习模型能力的研究核心。尽管近年来在语言模型(Language Models, LMs)等领域取得了显著进展,但关于此类模型如何实现持续学习/记忆、自我改进以及发现“有效解”的根本性挑战和未解问题依然存在。本文提出一种全新的学习范式——嵌套学习(Nested Learning, NL),该范式通过一组嵌套的、多层次的和/或并行的优化问题来统一表征模型,每个优化问题均具有其自身的“上下文流”(context flow)。NL揭示了现有深度学习方法实际上是通过压缩自身的上下文流来从数据中学习;同时解释了为何在大规模模型中会出现“上下文学习”(in-context learning)现象。NL为深度学习开辟了一条新路径(即深度学习的新维度),通过引入更多“层级”结构,设计出更具表达能力的学习算法,从而实现更高阶的上下文学习能力。除了其在神经科学上的合理性与数学上的可解释性(白盒特性)之外,我们通过三项核心贡献进一步论证了该范式的重大意义:(1)深度优化器(Deep Optimizers):基于NL框架,我们发现经典的基于梯度的优化器(如Adam、带动量的SGD等)本质上是关联记忆模块,其目标是通过梯度下降压缩梯度信息。基于这一洞察,我们提出了一系列具备深层记忆结构和/或更强学习规则的新型优化器,显著提升了优化能力;(2)自修改巨擘(Self-Modifying Titans):借助NL对学习算法本质的深刻理解,我们提出一种全新的序列模型,该模型能够通过学习自身的更新算法,实现对自身结构与行为的动态自我调整;(3)连续记忆系统(Continuum Memory System):我们提出一种全新的记忆系统建模范式,超越了传统“长期记忆/短期记忆”的二元划分,构建了一个连续统一的记忆架构。将我们提出的自修改序列模型与连续记忆系统相结合,我们构建了一个名为HoPE的学习模块,在语言建模、持续学习以及长上下文推理等任务中均展现出优异的性能与广阔的应用前景。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
嵌套学习:深度学习架构的幻觉 | 论文 | HyperAI超神经